我们报告了激进的量化策略,这些策略极大地加速了复发性神经网络传感器(RNN-T)的推理。我们使用4位整数表示进行权重和激活,并应用量化意识训练(QAT)来重新训练完整模型(声学编码器和语言模型)并实现近乎ISO的准确性。我们表明,根据网络本地属性量身定制的自定义量化方案对于在限制QAT的计算开销的同时,至关重要。密度比语言模型融合已显示出在RNN-T工作负载上的准确性提高,但严重增加了推理的计算成本。我们表明,我们的量化策略可以使用大型宽度宽度进行假设搜索,同时实现与流媒体兼容的运行时间,并且与完整的Precision模型相比,我们可以实现与流相兼容的运行时间和7.6 $ \ times $的完整模型压缩比。通过硬件仿真,我们估计端到端量化的RNN-T(包括LM Fusion)的3.4 $ \ times $从fp16到INT4,导致实时因子(RTF)为0.06。在NIST HUB5 2000,HUB5 2001和RT-03测试集中,我们保留了与LM Fusion相关的大部分收益,将平均WER提高了$ 1.5%。
translated by 谷歌翻译